GCTA | 金鑫:百万基因组时代的基因组大数据(下)
在《百万基因组时代的基因大数据》(上)中我们提到了基因组学“从零到一”质变过程,百万基因组与精准医疗的关系,以及华大的百万NIFTY数据的产生过程。
那么这些基因大数据会对我们的生活产生什么影响呢?今天我们就闲言少叙,马上带来华大股份研发大数据总监 金鑫,会议现场的ppt精华版:《百万基因组时代的基因大数据》(下):“生命科学大数据”,“未来待续”。
生命科学大数据具有更广泛的定义范畴,体现生命数字化的各类组学在环境因素的影响下与各种表型之间互相作用,互相影响,这就是生命的“公式”。
与业界公认的“千人基因组数据”比较,NIFTY的数据相关性也非常好(左图)。百万NIFTY项目的样本量更大,使得MAF(最小等位基因频率)图形与千人计划的MAF相比更向左偏移,即最小等位基因频率变得更小(右图)。
来自Genomics England 的一张图表示了:常见复杂疾病研究中(GWAS),样本需求量,致病基因频率与power间的关系。样本量越大,对疾病研究的助力越大。
用百万基因组数据与“身高”这个表型进行关联分析。横坐标不同颜色代表人的每条染色体,纵坐标表示相关性。图上的每个点代表每个不同的基因,点的位置越高,相关性越高。分析中我们发现有一个很高的点,这个点来源于一个名为“ACAN”的基因。而这个基因的主要作用就是促进软骨生长。
使用华大基因数据仓库中的50万例耳聋基因检测结果与百万NIFTY样本中对应位点的频率作图,也体现出了较好的相关性。
从大数据中,我们还可以分析出耳聋与地贫致病突变的地域分布。
以著名的“BRCA2”乳腺癌致病基因突变位点为例,上面是百万NIFTY的中国人数据,下面是主要基于白人的BRAC突变数据库。可以看出,在很多位点上中国人的突变频率和通常使用的BRAC突变数据并不一致,所以建立中国人自己的基因数据库很有必要。
血液中含有循环肿瘤细胞、游离肿瘤DNA及外切体等信息,这就是目前流行的“液体活检”技术的理论基础。
在百万NIFTY数据中我们还可以发现孕期肿瘤的踪迹。之前的研究表明拷贝数变异与肿瘤形成有关,因此通过观察拷贝数变化,可以间接了解肿瘤的踪迹。图中横坐标是每条染色体,红色表示拷贝数增加,蓝色表示拷贝数减少。
NIFTY数据还显示一个非常有趣的结果:从你体内获得的DNA可能并不全是人类的DNA!还包括各种动植物和微生物的遗传信息。
炎黄项目和第一个非洲人项目的结果和人类基因组计划的参考基因组数据比对,发现有很多地方并不相同,因此提示我们仅仅一个或几个的参考基因组数据并不够用,大数据可能会帮助我们挖掘更多的潜在信息。
广东人三大语系的遗传差异,也可以通过生命大数据来追根溯源。
面对愈加庞大的基因大数据,需要更多的合作者在“存”、“算、“传”、“产”、 “学”、“研”、“伦理”等各个方面的参与和合作,大家一起用“数据创造未来”!
【说明】PPT中部分数据来自华大基因100万NIFTY®数据分析所得(所有受检者均已签署知情同意书),不能代表整体情况,仅供参考。
【预告】:下期科技君将带来华大基因合成生物学平台负责人--沈玥女士精彩的会议演讲ppt:《数字造物--生命信息的进化和创新》
可能感兴趣:
关注华大科技,尽享精彩科研!